- Биоинформатика
Биоинформатика * біяінфарматыка * bioinformatics — новое направление исследований, использующее математические и алгоритмические методы для решения молекулярно-биологических задач. Задачи Б. можно определить как развитие и использование математических и компьютерных методов для решения проблем молекулярной биологии. Основными среди них являются следующие: 1) поддержание и обновление баз данных. Современная эра в молекулярной биологии началась с момента открытия двойной спирали Уотсоном и Криком в 1953 г. Эта революция породила большой объем данных полученных прямым чтением ДНК из разных участков геномов. Быстрое секвенирование стало возможно 10 лет назад, и первый полностью секвенированный геном — геном бактерии Haemophilus influenzae, включающий 1800 т. п. н. В 1996 г. закончено секвенирование первого генома эукариот, генома дрожжей (10 млн п. н.), и этот процесс продолжается со скоростью более 7 млн нуклеотидов в год. Знание геномной ДНК в значительной мере сделало возможным осуществление ряда фундаментальных открытий, таких, как интроны, самосплайсирующиеся РНК (см. РНК-процессинг), обратная транскрипция и псевдогены. Однако существующие базы данных не вполне адекватны требованиям молекулярных биологов: одной из нерешенных проблем является создание программного обеспечения для простого и гибкого доступа к данным; 2) поиск оптимальных алгоритмов для анализа последовательностей. Типичным примером такой задачи является задача выравнивания: как выявить сходство между двумя последовательностями, зная их нуклеотидный состав? Задача решается множество раз в день, и поэтому нужен оптимальный алгоритм с минимальным временем выравнивания. В современной Б. выделяют также ряд направлений: создание и поддержка баз данных (БД) регуляторных последовательностей и белков; БД по регуляции генной экспрессии; БД по генным сетям; компьютерный анализ и моделирование метаболических путей; компьютерные методы анализа и распознавания в геноме регуляторных последовательностей; методы анализа и предсказания активности функциональных сайтов в нуклеотидных последовательностях геномов; компьютерные технологии для изучения генной регуляции; предсказания структуры генов; моделирование транскрипционного и трансляционного контроля генной экспрессии; широкомасштабный геномный анализ и функциональное аннотирование нуклеотидных последовательностей; поиск объективных методов аннотирования и выявления различных сигналов в нуклеотидных последовательностях; эволюция регуляторных последовательностей в геномах; характеристики белковой структуры, связанные с регуляцией; экспериментальные исследования механизмов генной экспрессии и развитие интерфейса, связывающего экспериментальные данные с компьютерным анализом геномов. Первые работы по компьютерному анализу последовательностей биополимеров появились еще в 1960-1970-х гг., однако формирование вычислительной биологии как самостоятельной области началось в 1980-х гг. после развития методов массового секвенирования ДНК. С точки зрения биолога-экспериментатора можно выделить пять направлений вычислительной биологии: непосредственная поддержка эксперимента (физическое картирование), создание контигов (см.), организация и поддержание банков данных, анализ структуры и функции ДНК и белков, эволюционные и филогенетические исследования, а также собственно статистический анализ нуклеотидных последовательностей. Границы между этими направлениями в значительной мере условны: резуль таты распознавания белоккодирующих областей используются в экспериментах по идентификации генов, одним из основных методов предсказания функции белков является поиск сходных белков в БД, а для осуществления детального предсказания клеточной роли белка необходимо привлекать информацию филогенетических исследований. В 1982 г. возникли GenBank и EMBL — основные банки нуклеотидных последовательностей. Вскоре после этого были созданы программы быстрого поиска по банку — FASTA и BLAST. Позднее были разработаны методы анализа далеких сходств и выделения функциональных паттернов в белках. Оказалось, что даже при отсутствии близких гомологов, можно достаточно уверенно предсказывать функции белков. Эти методы с успехом применялись при анализе вирусных геномов, а затем и позиционно клонированных генов человека. Алгоритмы анализа функциональных сигналов в ДНК (промоторов, операторов, сайтов связывания рибосом) менее надежны, однако и они в ряде случаев были успешно применены, напр. при анализе пуринового регулона Escherichia coli. Идет активная работа над созданием алгоритмов предсказания вторичной структуры РНК. Алгоритмические аспекты этой проблемы были разрешены достаточно быстро, однако оказалось, что точность экспериментально определенных физических параметров не позволяет осуществлять надежные предсказания. В то же время сравнительный подход, позволяющий построить общую структуру для группы родственных или выполняющих одну и ту же функцию РНК, дает существенно более точные результаты. Другим важным достижением, связанным с рибосомальными РНК, стало построение эволюционного древа прокариот и вытекающей из него естественной классификации бактерий, используемой в банках нуклеотидных последовательностей, в частности GenBank. Статистическая информация (в виде предсказания GenScan), последовательности гомологичных белков и последовательности EST являются исходным материалом для предсказания генов в последовательностях ДНК человека программой ААТ (Huanc et al., 1997). Алгоритмы, объединяющие анализ функциональных сигналов в нуклеотидных последовательностях и предсказание вторичной структуры РНК, используются для поиска генов тРНК и самосплайсирующихся интронов. Одновременный анализ белковых гомологий и функциональных сигналов позволил получить интересные результаты при изучении системы репликации по механизму катящегося кольца. Опыт показывает, что надежное предсказание функции белка по аминокислотной последовательности возможно лишь при одновременном применении разнонаправленных программ структурного и функционального анализа. Основное — это приближение теоретических методов к биологической практике. Во-первых, вновь создаваемые алгоритмы все больше имитируют работу биолога. В частности, был формализован итеративный подход к поиску родственных белков в банках данных, позволяющий работать со слабыми гомологиями и искать отдаленные члены белковых семейств. При этом все члены семейства, идентифицированные на очередном шаге, используются для создания очередного образа семейства, являющегося основой для следующего запроса к БД. Другим примером являются алгоритмы, формализующие сравнительный подход к предсказанию вторичной структуры регуляторных РНК. Во-вторых, создаваемые алгоритмы непосредственно приближаются к экспериментальной практике. Так, повышение избирательности методов распознавания областей, кодирующих белок, (возможно, за счет уменьшения чувствительности) позволяет осуществлять предсказание специфичных гибридизационных зондов и затравок ПЦР. Наконец, развитие Интернета сняло зависимость от модели компьютера и операционной системы и сделало программы универсальным рабочим инструментом.
Генетика. Энциклопедический словарь. - Минск: Белорусская наука. Картель Н. А., Макеева Е. Н., Мезенко А. М.. 2011.